# conv1d accelerator spec

## HOST-device 架构

采用ZYNQ ARM A9 cpu作为HOST，自己设计PL端加速device。

数据接口使用DMA和异步fifo。大致如图：

## 计算单元CU设计

基本思想：控制和计算分离，指令前后端解耦。

最基础的计算单元为PE，其输入输出端口如下：

module pe (

    input [`DATA\_RANGE] x,

    input [`DATA\_RANGE] weight,

    input in\_valid,

    input flush,

    input out\_en,

    input calc\_bias,

    output reg [`DATA\_RANGE] result\_r,

    output reg out\_valid\_r,

    //////////////////

    input clk,

    input rst\_n

);

PE作为设计中的基本计算单元，仅仅根据输入控制信号完成冲刷(FLUSH)、基本乘累加（MAC）、计算偏置（calc\_bias）以及输出（out\_en）功能。对于CONV1D计算采用输出固定模式（OS-MODE）。

其功能定义如下：

rst\_n异步复位优先级最高，一旦有效则立即复位pe内部寄存器。

其次，按照如下逻辑进行信号处理：

|  |  |  |  |  |
| --- | --- | --- | --- | --- |
| **flush** | **in\_valid** | **calc\_bias** | **out\_en** | **执行结果 1cycle** |
| 1 | x | x | x | pe寄存器冲刷 |
| 0 | 0 | 0 | 0 | nop，维持寄存器不变 |
| 0 | 0 | 0 | 1 | 将out\_valid\_r拉高 |
| 0 | 0 | 1 | 0 | 非法uop，触发异常 |
| 0 | 0 | 1 | 1 | 非法uop，触发异常 |
| 0 | 1 | 0 | 0 | 基本乘累加MAC操作 |
| 0 | 1 | 0 | 1 | 完成最后一次MAC并将out\_valid\_r拉高 |
| 0 | 1 | 1 | 0 | result\_r加本周期的weight（偏置） |
| 0 | 1 | 1 | 1 | result\_r加本周期的weight（偏置），并将out\_valid\_r拉高 |